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摘 要 : [目的 /意义 ] 针对 疾病 知识 的 不 同 表达 方式 ,提出 一 种 融合 疾病 多 维度 的 综合 语义 相似 度 计算 方案 。[ 方 法 /过 
程 ] 在 整合 疾病 本 体 和 医学 百科 各 自 特征 的 基础 上 ,设计 由 基于 疾病 本 体 的 语义 相似 度 和 基于 医学 百科 的 疾病 
语义 相似 度 构成 的 综合 语义 相似 度 模 型 。 其 中 ,运用 图 论 计算 基于 疾病 本 体 的 语义 相似 度 ,运用 LDA、 集 合 和 向 
量 空间 模型 计算 基于 医学 百科 的 疾病 语义 相似 度 。[ 结果 /结论 ] 将 本 文 的 方法 同 临床 医生 的 人 工 判别 进行 比 
较 , 结 果 表 明 本 文 的 方法 能 够 有 效 地 反映 疾病 的 语义 相似 度 。 本 文 的 方法 可 为 疾病 相似 性 进一步 研究 提供 参考 。 
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语义 相似 度 被 用 于 反映 概念 术语 或 者 文档 间 的 相 
似 稳 度 , 一 直 是 人 工 智能 、 认 知 科学 、 自 然 语 言 处 理 的 
埠 三 和 难点 上 。 语 义 相似 度 在 信息 检索 .服务 推荐 文 
本 案 类 分 析 等 方面 有 广泛 的 应 用 *"" 。 疾 病 语义 相似 
度 对 研究 疾病 的 发 病 机 制 .诊断 和 药物 研制 具有 积极 


的 必用 ,被 广泛 地 应 用 于 生物 医学 概念 术语 关系 的 研 
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Fem 
-三 在 对 医学 信息 进行 知识 管理 的 过 程 中 ,研究 者 从 
不 同方 面 建立 了 多 种 包含 医学 概念 关系 的 知识 库 , 如 : 
由 世界 卫生 组 织 依据 疾病 的 病因 .病理 ,临床 表现 和 解 
剖 位 置 等 建立 的 国际 疾病 分 类 表 ( International Classifi- 
cation of Diseases , ICD ) 和 由 美国 国立 医学 图 书馆 建立 
的 医学 主题 词 表 (Medical Subject Headings ,MeSH ) 等 。 
近年 来 ,研究 者 运用 本 体 来 描述 医学 知识 间 的 关系 , 建 
立 了 一 些 医学 本 体 知 识 库 , 来 实现 生物 医学 术语 的 语 
义 可 计算 性 。 生 物 医 学 计算 中 心 的 BioPortal 7 整理 统 
计 有 近 一 千 个 医学 本 体 。L. Schriml ”为 了 实现 人 类 
疾病 的 形式 化 表示 ,利用 本 体 技术 构建 了 疾病 本 体 。 
国内 也 积极 展开 医学 知识 组 织 相关 研究 , 朱 玲 等 中 以 
我 国 中 医学 文献 为 基础 ,进行 中 医 本 体 构建 研究 ; 李 兰 


随 着 医学 科学 的 发 展 ,人 们 积累 了 大 量 的 医学 知 
识 。 医 学 百科 全 书 是 一 种 重要 的 知识 表示 形式 ,国内 
外 专家 出 版 了 大 量 的 医学 百科 全 书 , 如 :由 全 球 数 百 位 
医学 专家 一 个 独立 的 同行 评审 编辑 委员 会 和 专业 医 
学 作者 协作 撰写 而 成 《 默 沙 东 诊疗 手册 》 和 由 我 国政 
府 主导 完成 的 《中 华 医学 百科 全 书 》。 互 联网 时 代 , 促 
进 了 百科 全 书 的 发 展 ,形成 了 Wiki 百科 和 百度 百科 等 
互联 网 百科 ,在 此 基础 上 也 形成 了 一 批 医学 互联 网 百 
科 , 如 :美国 国立 医学 图 书馆 建立 Medlineplus 和 我 国 
卫 健 委 牵头 建立 百科 名 医 中 的 医学 百科 。 

如 何 运用 不 同类 型 的 医学 信息 资源 来 计算 疾病 的 
语义 相似 度 ,提高 疾病 语义 相似 度 计算 的 全 面 性 和 准 
确 性 ,将 有 利于 医学 信息 资源 的 发 现 服务 ,为 更 深层 次 
的 智慧 医学 发 展 提 供 文 撑 。 基 于 此 ,本 文 研 究 利 用 疾 
病 本 体 与 疾病 百科 全 书 中 关于 疾病 描述 的 信息 ,设计 
了 基于 多 维度 的 疾病 语义 相似 度 的 计算 方法 ,首先 分 
析 国 内 外 语义 相似 度 研究 中 常用 的 计算 方法 ;然后 , 研 
究 融 合 疾 病 本 体 和 百科 全 书 的 多 维度 的 疾病 语义 相似 
度 的 计算 方法 ;最 后 ,利用 具体 实例 对 本 文 提 出 的 方法 
进行 分 析 。 


2 相关 研究 


娟 院士 团队 构建 了 肝炎 本 体 '”。 


语义 相似 度 受 到 研究 者 的 广泛 关注 ,根据 研究 对 
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象 和 任务 的 差异 ,语义 相似 度 可 以 分 成 概念 (词语 ) 层 
次 和 文本 (句子 段落) 层次" 。 概 念 语义 相似 度 是 对 
词语 间 的 关系 进行 语义 度量 2 。S，Spagnola 45/77 运 
用 概念 在 语义 网 中 的 最 短路 径 , 融 合用 户 评分 等 特征 
来 表示 语义 相似 性 。R.，Cilibrasi 等 ”以 万 维 网 作为 
数据 库 ,以 Google 搜索 引擎 为 基础 ,构建 了 谷歌 语义 相 
似 度 的 计算 方法 。 也 有 学 者 利用 现 有 的 语义 知识 库 中 
的 语义 关联 计算 概念 语义 相似 度 , 李 峰 和 刘 杰 259 分 
别 以 HowNet -2000 和 HowNet - 2008 为 基础 研究 中 文 
MES RT SCARE DURS; T. Nguyen" 和 X. Liu ^ 利用 
WordNet 计算 词语 间 的 语义 相似 度 。 张 军 亮 等 "运用 
农业 百科 中 词 条 注释 来 计算 语义 相似 度 。 文 本 语义 相 
似 度 是 计算 句子 或 段落 间 语 义 相关 程度 的 L 
Aainul 等 小 运用 语料库 和 最 长 公共 子 序列 来 研究 句子 
运用 LDA 来 


FIERI WordNet 来 计算 两 个 句子 间 的 语义 相似 度 。 李 
WESS" 利用 依存 句法 分 析 和 词 钳 入 向 量 相 结 合 的 广 
法 计算 句子 间 的 语义 相似 度 。 往 志 建 等 ”在 利用 复 
的 网络 表征 短文 本 的 基础 上 计算 短文 本 的 语义 相似 


| 
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COMITE ARE KI KRPE , VE SAAE RT DAY 
EFRI A DET ELIT UCRUE TR RRI 
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词 请 共 现 、 上 下 文 信息 等 对 概念 或 文本 进行 表示 ,再 结 
合 数 学 运算 来 计算 语义 相似 度 。D，Bollegala 4 fi] 
用 -各 eb 搜索 引擎 返回 的 页 面 计数 和 文本 片段 来 计算 
语 史 相似 度 ;基于 图 论 方法 是 在 现 有 知识 库 的 基础 上 ， 
运用 图 论 的 相关 理论 来 解释 语义 相似 度 ” R. Rada 
等 ”利用 两 个 概念 间 的 最 短路 径 来 度量 概念 语义 相 
IURE. A. Banu 等 "将 概念 所 包含 的 子 概念 也 作为 语 
义 概念 的 影响 要 素 。X. Zhu 等 "将 图 局 部 区 域 密度 
引入 到 语义 相似 度 计算 中 ,来 改进 相似 度 的 效果 。 李 
文清 等 ”将 信息 论 理论 引入 到 概念 语义 相似 性 计算 
中 ,提出 了 一 种 加 权 本 体 概念 语义 相似 度 计算 方法 ; 基 
于 混合 技术 方法 是 针对 多 源 信息 综合 运用 多 种 方法 进 
行 语义 相似 度 计算 的 方法 。L，Sahni 等 ”整合 Web 


预测 等 ,生物 医学 领域 的 语义 相似 度 主要 基于 现 有 的 
本 体 和 医学 知识 库 展开 J. Jeong 等 和 P. 
Dutta 等 利用 基因 本 体 研 究 基 因 和 基因 产物 的 语义 
相似 度 。H. Al- Mubaid 等 ”在 UMLS 框架 下 ,使 用 
Medline 作为 标准 语料库 和 网 格 本 体 来 测量 生物 医学 
领域 概念 之 间 语 义 相似 性 的 可 行 性 。 李 文 庆 ' 运 用 
比较 概念 的 所 有 分 类 知识 方法 ,提出 了 一 种 医学 语义 
相似 度 算 法 。 

综 上 所 述 , 现 有 语义 相似 度 概念 计算 方法 主要 是 
基于 本 体 知识 的 概念 层级 关系 和 运用 文本 相似 度 来 实 
现 ,但 也 存在 一 些 问 题 : 四 较 少 针对 同一 语义 概念 将 两 
者 整合 起 来 实现 综合 语义 相似 度 计算 。 将 不 同 的 知识 
资源 采用 不 同 语义 计算 方法 ,并 有 效 地 整合 起 来 计算 
语义 相似 度 , 可 以 全 面 反映 概念 间 的 语义 相似 度 ;@) 文 
本 相似 度 计算 中 ,一 般 将 概念 的 描述 文本 作为 一 个 整 
体 文本 进行 分 析 , 较 少 关 注 针 对 概念 的 不 同 描述 表达 。 
采用 不 同 的 计算 方法 ,将 描述 概念 的 文本 依照 内 容 类 
别 进行 分 解 , 并 针对 文本 描述 的 不 同 进行 分 别处 理 , 可 
以 更 科学 合理 地 反映 概念 的 语义 相似 。 

由 于 疾病 语义 相似 度 研究 具有 重要 意义 ,并 且 疾 
病 有 本 体 和 医学 百科 等 多 种 不 同 的 知识 表达 形式 , 同 
时 ,医学 百科 中 疾病 的 概念 由 概述 .症状 .病因 、 诊 断 和 
治疗 等 多 部 分 组 成 ,因此 ,本 文 整 合 疾病 本 体 和 医学 百 
科 信 息 资 源 , 将 医学 百科 中 疾病 概念 的 不 同 描述 分 别 
处 理 , 设 计 了 基于 疾病 的 知识 表达 和 内 容 描述 的 多 维 
度 疾病 语义 相似 度 计算 方法 ,以 提高 疾病 语义 计算 的 
全 面 性 和 合理 性 。 

3 疾病 综合 语义 相似 度 计 算 

疾病 概念 的 表示 形式 有 多 种 多 样 ,结合 不 同 表 示 
形式 的 特点 ,选择 相似 度 计算 方法 ,并 将 不 同 语义 相似 
度 有 效 整合 起 来 ,可 以 得 到 更 全 面 更 准确 的 语义 相似 
度 。 本 文 将 来 自 疾 病 本 体 和 医学 百科 中 疾病 词 条 的 内 
容 整 合 起 来 ,对 疾病 的 语义 相似 度 进行 分 析 , 具 体 方案 
见 图 1。 疾 病 综合 语义 相似 度 的 计算 过 程 如 下 : 

首先 ,把 两 个 疾病 词语 在 疾病 本 体 中 找到 对 应 的 
疾病 概念 ,基于 疾病 本 体 ( Disease. Ontology , DO ) 计算 


搜索 引擎 的 相似 性 度量 和 词语 的 分 类 结构 相似 性 度量 
来 实现 语义 相似 度 的 计算 。Y. Yang 等 "综合 概念 间 
的 语义 距离 .概念 层次 以 及 上 下 义 词 集合 之 间 的 重奏 
程度 来 量化 概念 间 的 语义 相似 性 。 

语义 相似 性 也 是 生物 医学 研究 过 程 中 的 重要 内 
容 ,如 基因 聚 类 、 基 因 表 达 数 据 分 析 、 分 子 相 互 作用 的 


疾病 间 的 语义 相似 度 So(wi ,w, ) 。 

然后 ,在 医学 百科 中 查找 到 两 个 疾病 对 应 的 词 条 ， 
利用 医学 百科 内 容 的 相似 度 来 计算 疾病 间 的 语义 相似 
BE Sd (w, ,w,) ,需要 通过 计算 定义 语义 相似 度 .证 状语 
义 相似 度 ,病因 语义 相似 度 .诊断 语义 相似 度 和 治疗 语 
义 相似 度 得 到 相关 数据 。 
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张 军 亮 . 多 维度 疾病 语义 相似 度 研究 [可 .图书 情 报 工作 ,2020 ,64(12):127 - 135. 


最 后 ,将 基于 DO 的 疾病 语义 相似 度 和 基于 医学 
百科 的 疾病 语义 相似 度 通过 公式 (1) 综 合 起 来 。 
S(w,; ) =a * So(w,,w,) * B* Sd(w, ,w,) 
公式 (1) 
Hp a +g =1, 依 据 需求 调节 两 个 相似 度 之 间 的 
比例 ,设置 的 基本 原则 是 使 综合 疾病 的 综合 语义 相似 
度 与 工 判读 的 疾病 语义 相似 度 尽 可 能 一 致 。 


疾病 本 体 


模型 
(DO) LDA 模 


症状 相似 度 | 病因 相似 度 | 诊断 相似 度 | | 治疗 相似 度 || 定 义 相似 度 


基于 百科 的 相似 度 


-— 

BE 疾病 的 综合 语义 相 人 

Co 疾病 的 综合 语义 相似 度 

V^ ”图 1 疾病 综合 语义 相似 度 计算 方案 


p 


382 基于 DO 的 疾病 语义 相似 度 计算 

cg DO 将 每 个 疾病 概念 作为 一 个 节点 ,通过 概念 语义 
Anm, e vr B A PRAE , JEH] MeSH ICD SNOMED 
FEOMIM 知识 库 中 的 疾病 概念 术语 联系 起 来 。 图 2 是 
D6 代谢 疾病 的 部 分 结构 
CN 


代谢 疾病 


L| 糖 原 代谢 障碍 


遗传 性 代谢 疾病 | 


| 高 尿酸 血 症 | [esee E 


le eiemma unen] 糖 原 存储 疾病 


图 2 DO 部 分 结构 


参考 J Zhang ”文献 中 关于 概念 树 形 结构 相似 度 
的 计算 方法 ,疾病 本 体 的 语义 相似 度 通过 公式 (2) 来 
计算 : 

So(wl,w2)- 

depth ( NCW( w, ,w, ) 
depth (w,) + depth(w,) — depth ( NCW (w, ,w,) ) 
公式 (2) 

So (w, ,w,) 的 值 为 [0,1], 值 越 大 表明 在 疾病 本 体 
中 ,两 个 疾病 概念 越 相似 。 

定义 1: depth(w) 表 示 概 念 w 到 根 节点 的 深度 , 即 
节点 到 根 节 点 的 距离 。 如 在 图 2 中 ,“ 副 泻 粉 样 变性 ” 
距离 根 节 点 的 “代谢 疾病 ”的 距离 为 3,depth( 副 淀粉 样 
变性 ) =3。 


定义 2: NCW(w, za) 表示 距离 概念 w 和 概念 w, 


最 近 的 共同 祖先 概念 。 如 在 图 2 中 ,“ 遗 传 性 果糖 耐 受 
不 良 综合 征 ”(w,) 和 “甘油 激酶 缺乏 症 ”(w,) 最 近 的 共 
同 祖 先 节点 为 “遗传 性 代谢 疾病 ”, NCW(wi ,ws) 238 
传 性 代谢 疾病 。 

如 在 图 2 中 ,“ 遗 传 性 果糖 耐 受 不 良 综合 征 ”(w ) 
和 “甘油 激酶 缺乏 症 ”(w,) 的 语义 相似 度 计算 为 


We 
3.2 ”基于 医学 百科 的 疾病 语义 相似 度 计 算 

在 医学 百科 中 ,疾病 条 目 对 每 个 疾病 都 从 概述 、 症 
状 (包含 临床 表现 等 ) ,病因 \ 诊 断 ( 包 含 检验 等 ) 和 治 
疗 ( 包 含 预防 等 ) 等 对 疾病 知识 进行 了 比较 完备 的 解 
说 。 通 过 对 条 目 分 析 ,疾病 概述 部 分 浓缩 了 疾病 的 本 
质 基本 知识 ;症状 部 分 描述 了 疾病 的 表现 症状 ;病因 部 
分 详细 说 明了 疾病 的 发 病原 因 ; 诊 断 部 分 详细 描述 了 
疾病 诊断 的 过 程 ;治疗 部 分 详细 阐述 了 疾病 治疗 方案 
等 。 

由 于 疾病 条 目的 概述 .症状 病因、 诊断 和 治疗 部 
分 对 于 疾病 的 描述 表示 在 文本 的 长 度 方面 存在 差别 ， 
且 各 部 分 的 描述 语言 和 词语 的 语义 密度 也 存在 差异 ， 
如 :概述 部 分 内 容 相对 较 短 ,语义 密度 相对 较 集中 ; 症 
状 部 分 医学 术语 描述 相对 较 多 ;病因 、 诊 断 和 治疗 部 分 
内 容 相 对 较 长 。 因 此 ,本 文 针对 各 部 分 的 描述 特征 的 
差异 ,设计 了 不 同 的 语义 相似 度 计算 方法 。 疾 病 概述 
部 分 的 词语 相对 较 少 , 旦 词语 之 间 存 在 较 高 的 关联 性 ， 
LDA 可 以 识别 文本 中 潜藏 的 主题 信息 ,因此 疾病 概述 
部 分 设计 了 基于 LDA 的 相似 度 计算 方法 ;症状 部 分 的 
词语 多 是 疾病 的 临床 表现 等 病人 的 异常 感觉 或 菜 些 客 
观 病 态 改变 ,可 以 理解 为 词语 的 集合 ,因此 ,症状 部 分 
设计 了 基于 集合 的 相似 度 计 算 方 法 ;病因 、 诊 断 和 治疗 
部 分 与 其 他 一 般 文本 内 容 相 似 ,但 是 各 部 分 的 词语 出 
现 的 频次 等 相关 特征 存在 差异 ,因此 病因 .诊断 和 治疗 
部 分 分 别 设计 了 基于 向 量 空间 的 相似 度 计算 方法 。 
3.2.1 Æ F LDA 的 相似 度 计算 

2003 4E D. Blei 等 依据 词 的 共 现 ,结合 “word-doc- 
ument-topic " 提出 隐 含 狄 利 克 雷 分 布 (Latent Dirichlet 
Allocation, LDA) £t? LDA 作为 一 种 非 监督 的 机 
器 学 习 方法 ,被 广泛 地 应 用 到 文本 信息 分 析 中 ” 。 本 
文 将 医学 百科 中 的 疾病 词 条 的 概述 作为 疾病 定义 , 运 
用 LDA 模型 得 到 每 个 疾病 的 主题 分 布 ,由 于 主题 模型 
是 以 概率 的 形式 存在 ,因此 ,相似 度 计 算 采 用 相对 
AU RHR DOE SUBIUETHREMIDESR : 

(1) 对 百科 中 的 疾病 词 条 的 概述 部 分 进行 分 词 ， 
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并 抽取 其 中 的 医学 术语 和 名 词 ,形成 数据 集 ; 
(2) 利 用 LDA 模型 算法 对 训练 数据 集 进行 分 析 人 处 
理 , 得 到 “topic-word” 的 LDA 模型 ; 
(3) 对 利用 LDA 模型 计算 疾病 w 的 主题 分 布 Tw, 
利用 定义 3 计算 疾病 的 相似 度 。 

定义 3: Tw 为 疾病 定义 的 主题 分 布 , (1 ,ts,…， 
ta) ,疾病 wl 和 疾病 w2 的 定义 相似 度 为 : 


n ba tty 


tiu ttz 
Sde(w, , wi) =1+ Y In 


2 


| rx 
2 (Eit 


In t, * X ty In t) 公式 (3) 
其 中 ,n Jy LDA 模型 中 主题 数量 ,th 和 ;分别 为 w 

和 w, 的 第 i 主题 的 概率 ,Sde(w ,w, ) 的 值 为 [0,1] , 值 

越 大 表明 两 个 疾病 概念 越 相似 。 

342 基于 集合 的 相似 度 计算 

疾病 的 症状 相似 度 通过 计算 描述 不 同 疾病 的 症状 

来 进行 表示 ,具体 通过 定义 4 来 计算 。 

局 定义 4: 疾 :疾病 w 症状 由 set(w) 表示, 即 描述 疾病 症 

Ai 在 集合 ,疾病 w, 和 疾病 w, 的 症状 相似 度 为 : 


set (w, ) MN set( w, ) 、 
set (w, ) U set (w, ) DUI 


Lr Oo 为 两 个 集合 交 运 算 , U 为 两 个 集合 的 并 运 
Psy Cw, w) 的 值 为 [0 ,1 ] , 值 越 大 表明 两 个 疾病 具 
AER E Ub e, 两 个 疾病 概念 越 相似 。 
225 ”基于 向 量 空间 的 相似 度 计算 

2 向 量 空间 模型 是 对 文本 内 容 进 行 向 量化 处 理 , 使 
其 好 以 进行 向 量化 处 理 ， 并 且 能 够 以 空间 上 的 相似 度 
表示 语义 相似 度 ， 被 广泛 地 应 用 于 文本 信息 处 理 中 。 
疾病 百科 中 关于 病因 Jd 依 断 和 治疗 的 内 容 相 对 较 丰 富 ， 
因此 本 文采 用 基于 向 量 空间 的 相似 度 计算 方法 。 具 体 
的 实现 步骤 为 :首先 对 病因 .诊断 和 治疗 部 分 的 文本 向 
量化 ;然后 分 别 利 用 定义 5 XE X6, 4E CT 计算 相似 
度 ; 最 后 ,通过 定义 8 计算 疾病 基于 医学 百科 的 疾病 相 
似 度 。 

定义 5: 疾 病 w 病因 的 词 向 量 
和 疾病 w, 的 病因 相似 度 为 : 


SSY(201 „w, ) = 


E 


定义 为 ws ,疾病 Wi 


WS, * WS, 


Set(w, ,w,) = Te 公式 (5) 
其 中 us, 和 ws, 为 疾病 o, 和 疾病 w 病因 部 分 的 
文本 向 量 , 为 向 量 内 积 , | 为 向 量 模 运算 。 
定义 6: 疾 病 w 诊断 的 词 向 量 定义 为 wd, 疾 病 w 
和 疾病 w 的 诊断 相似 度 为 ; 
wd, * wd 
di(w,,w,) = 2 公式 
Seng) epp] 9569 


其 中 wd, 和 wd, 为 疾病 w, 和 疾病 w, 诊 
文本 向 量 。 

定义 7: 疾 病 w 治疗 的 词 向 量 定 义 为 wi, 疾 病 wi 
和 疾病 w, 的 治疗 相似 度 为 : 


断 部 分 的 


Wt, * wt 
ZN GE 7 
Ta | e ERT 


其 中 wt, 和 wt, 位 疾病 w, 和 疾病 w, 治疗 部 分 的 
文本 向 量 。 

Set (w, , w, ) „Sdi (w, ,w;) ,Str(w, ,w, ) WEH [O, 
1] , 值 越 大 表明 两 个 疾病 在 病因 、 诊 断 和 治疗 方面 具有 
相似 性 越 大 。 

定义 8 :基于 疾病 描述 的 语义 相似 度 为 : 

Sd (w, ,w,) =y, * Set(w, ,w,) 十 ya * Ssy(w, w;) 


Str(w, „W, ) m 


+y, * Set(w,,w5) +y, * Sdi(w,,w,) +y; * Str(w,, 
w, ) 公式 (8) 

其 中 y, ys ys ya ys 各 个 语义 相似 度 的 权重 ,是 
Yit Yat ys +yi+ys=1, 通 过 专家 和 实验 对 其 调整 设 
置 ,设置 的 基本 原则 是 依据 内 容 反映 疾病 语义 的 程度 
来 设 定 ,概述 部 分 是 对 疾病 相对 全 面 的 概括 ,设置 较 高 
的 权重 ;病因 证 状 .诊断 和 治疗 描述 疾病 语义 的 不 同 
方面 内 容 , 对 疾病 语义 相似 度 影响 程度 认为 是 均等 的 。 


4 实验 


为 了 验证 本 文 提出 的 疾病 语义 相似 度 方法 的 效 
果 ,利用 本 文 方法 对 20 对 疾病 进行 了 相似 度 计算 , 同 
时 组 织 临床 医生 对 20 对 疾病 进行 了 相似 性 判别 ,对 本 
文 方法 和 人 工 判 别 进行 相关 性 比较 。 
4.1 实验 环境 

本 文 的 数据 集 主要 包括 疾病 本 体 和 疾病 百科 。 疾 
病 本 体 数据 来 源 于 西北 大 学 基因 医学 中 心 和 马里 兰 大 
学 医学 院 的 基因 组 科学 研究 所 的 Disease Ontology | 。 
A de enn emis 
病 百科 “ , 共 收 集 7 808 个 疾病 概念 。 本 文 利用 百科 名 
医 网 中 疾病 百科 药品 百科 和 检验 百科 中 的 医学 词语 ， 
以 及 搜集 了 医学 症状 的 词语 组 成 医学 词典 ,将 医学 词 
典 作为 疾病 概念 描述 的 分 词 词典 。 

临床 医生 是 从 事 临床 治疗 和 医学 研究 的 一 线 , 最 
能 掌握 疾病 间 的 语义 关联 ,因此 本 文 还 组 织 了 新 乡 医 
学 院 第 一 附属 医院 (三 级 甲 等 ) 的 临床 医生 对 疾病 相 
似 度 进行 判断 ,从 内 分 泌 科 和 神经 内 科 两 个 科室 选择 
5 位 临床 医生 (其 中 1 位 主任 医师 ,2 位 副 主 任 医师 和 
2 位 主治 医师 ) 参 与 对 20 对 疾病 的 相似 度 进行 独立 人 
工 评判 ,相似 度 等 级 为 0 到 9,0 表示 完全 不 相似 ,9 R 
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示 完 全 相似 ,最 后 利用 公式 (9) 计 算 人 工 相似 度 : 
公式 (9) 


其 中 sp; 为 第 i 个 专家 对 疾病 对 的 相似 度 评判 分 
数 。sp 的 值 为 [0,11,0 表示 临床 医生 认为 两 个 疾病 概 
念 完全 不 相似 ,1 表示 临床 医生 认为 两 个 疾病 概念 完 


全 相似 ,sp 值 越 大 表明 临床 医生 认为 两 个 疾病 的 相似 
度 越 高 。 为 了 验证 五 位 临床 医生 在 疾病 语义 判断 的 一 
致 性 ,对 其 结果 运用 克朗 巴赫 系数 (Cronbach”s Al- 
pha) “进行 了 一 致 性 检验 ,结果 为 0.977 ,表明 医生 之 
间 的 疾病 语义 相似 度 判 断 具 有 和 较 高 的 一 致 性 。 


表 1 疾病 语义 相似 度 

疾病 1 疾病 2 人 工 综合 1 ”综合 2 综合 3 本 体 定义 病因 症状 诊断 治疗 综合 4 

2 型 糖尿 病 1 型 糖尿 病 0. 67 0.55 0.51 0.58 0.71 0.61 0. 14 0.12 0. 08 0. 55 0.38 
2 型 糖尿 病 百日咳 0. 00 0. 03 0. 03 0. 02 0. 00 0. 11 0.01 0.04 0.01 0. 02 0. 06 
2 型 糖尿 病 糖尿 病 0.78 0.71 0.69 0.73 0. 80 0. 82 0. 65 0.17 0.58 0.57 0. 62 
2 型 糖尿 病 妊娠 糖尿 病 0. 67 0.57 0.55 0. 59 0. 67 0.75 0.17 0. 00 0.57 0. 47 0. 48 
2 型 糖尿 病 糖尿病 视网膜 病变 0.49 0.17 0.20 0.13 0.00 0. 80 0.02 0.00 0.05 0.04 0.34 
2 型 糖尿 病 先天 性 心脏 病 0. 00 0.04 0. 04 0. 03 0. 00 0. 14 0. 05 0. 02 0.01 0. 03 0.07 
32573 高 血糖 0.51 0.45 0.42 0.47 0.57 0.47 0.09 0.10 0. 66 0. 05 0.32 

lg 低 钾 血 症 0.18 0.18 0.17 0.20 0.25 0.27 0.02 0.02 0.01 0.02 0.12 

lide 风湿 性 关节 炎 0.22 0. 13 0. 14 0. 12 0. 08 0.39 0.02 0. 03 0. 06 0.01 0.17 

We — 埃 博 拉 出 血 热 0.20 0.17 0.21 0. 14 0. 00 0.51 0. 69 0. 05 0.07 0. 10 0.34 

Ute oi SE FER Je 0.29 0.22 0. 24 0. 20 0. 10 0. 47 0. 54 0.01 0.20 0.25 0.34 

EJ ”风湿 性 关节 炎 0.13 0. 08 0. 08 0. 08 0. 09 0. 09 0.01 0.07 0. 10 0. 03 0.07 

Ute JA 0. 00 0. 08 0. 08 0. 09 0.11 0. 10 0. 00 0.07 0. 02 0.01 0. 05 

Ute 鼻炎 0.18 0. 15 0.16 0.14 0.10 0.42 0.14 0.02 0.03 0.03 0.20 

ES JA 0.04 0.15 0.16 0.14 0.09 0.47 0.04 0.05 0.01 0.01 0.20 

ES 鼻炎 0.18 0.11 0.12 0.11 0.08 0.29 0.03 0.07 0. 04 0.03 0.14 

热 病毒 性 肺炎 0.20 0.18 0.22 0. 14 0. 00 0. 63 0. 42 0. 06 0.14 0. 10 0. 36 

热 ” 风湿 性 关节 炎 0.00 0. 03 0.04 0.02 0. 00 0. 13 0.01 0. 02 0.01 0.01 0.06 

热 JA 0. 00 0. 03 0. 04 0. 03 0. 00 0. 15 0. 00 0.01 0. 02 0.01 0.07 

性 肺炎 鼻炎 0.33 0.25 0.26 0.24 0.18 0.67 0. 11 0.07 0. 08 0. 05 0.32 


Ys en =y; 20.15 
O 本 文 在 实验 过 程 中 使 用 的 编程 语言 环境 
Python3.6 64 位 系统 , 自然 语言 处 理工 具 为 Han- 
LP ,数学 计算 Numpy ^ ,主题 分 析 gensim ^" 的 LDA 
和 TF-IDF。 
4.2 评价 方法 
为 评价 本 文 提出 算法 的 有 效 性 ,采用 Spearman 相 
关系 数 和 Pearson 相关 系数 来 进行 评价 。 两 个 具有 相 
同 数量 元 素 的 随机 变量 X( 疾 病 的 综合 语义 相似 度 ) 了 
(人 工 判读 的 疾病 语义 相似 度 ) X, Y, 分 别 为 XY 中 
的 第 i 个 元 素 , 对 XY 中 的 元 素 按 照 升序 或 降序 的 方 
式 对 其 进行 排序 ix; y; 分 别 为 X,;、Y; 的 排序 位 置 , 将 集 
合 和 XY 中 的 对 应 元 素 的 位 置 进行 差 运 算得 到 d, = x, — 
y;,Spearman 相关 系数 “计算 公式 为 : 
65` É 


EL s n vap 
ET 公式 (10) 


p- 


CT 1 相似 度 a=0.5,B8=0.5; 综 合 2 相似 度 a=0.6,B=0.4; 综 合 3 相似 度 a=0.4,B=0.6; 综 合 4 为 百科 综合 相似 度 y =0.4,y = 


其 值 在 [ -1,1] 之 间 , 其 值 越 大 ,表示 其 相关 性 
越 大 。 本 文 利用 Spearman 相关 系数 反映 本 文 的 疾病 
综合 语义 相似 度 计算 方法 与 临床 医生 对 疾病 相似 度 之 
间 的 相关 关系 。 如 果 Spearman 相关 系数 越 接 近 1 , 表 
明 本 文 设计 的 疾病 语义 相似 度 与 医生 的 认 知 判断 越 相 
近 。 

Pearson MARAU 计算 公式 为 : 

XO -X)(-Y) 
p ; : 
ELO V EGE 

其 值 也 在 [ -1,1] 之 间 ,Pearson 相关 系数 的 绝对 
值 越 大 ,相关 性 越 强 ,相关 系数 越 接近 于 1 或 -1, 相 关 
度 越 强 , 相关 系数 越 接近 于 0, 相关 度 越 弱 。 同 
Spearman 相关 系 系 数 一 样 ,如 果 Pearson 相关 系数 越 接 
近 1 ,表明 本 文 设计 的 疾病 语义 相似 度 与 医生 的 认 知 
判断 越 相 近 。 


公式 (11) 
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4.3 实验 过 程 及 结果 
4.3.1 实验 过 程 

在 实验 中 ,包括 计算 基于 疾病 本 体 的 语义 相似 度 
和 基于 疾病 百科 的 语义 相似 度 两 部 分 ,基于 本 体 的 语 
义 相似 度 利 用 疾病 到 根 节点 的 路 径 来 实现 计算 ;基于 
疾病 百科 的 语义 相似 度 需 要 先 计 算 概 述 的 LDA 模型， 
病因 .诊断 和 治疗 的 TF-IDF 模型 ,模型 实现 过 程 如 图 3 


所 示 : 
=: gensim IDA 
LDA TF-IDF 
TF-IDF 模型 


3 ”疾病 百科 的 LDA 、TF-IDF 模型 建立 过 程 


实验 中 预 处 理 的 主要 工作 是 从 网 络 上 将 医学 百科 
的 疾病 词 条 相关 内 容 收集 起 来 ,综合 利用 内 容 的 结构 
将 经 病 条 依照 疾病 概述 .病因 .症状 .诊断 和 治疗 部 分 
进 得 分 割 处 理 ,实现 对 内 容 的 清洗 ,为 下 一 步 各 部 分 的 
送 静 集 构建 提供 原始 材料 。 

@@ 实 验 中 分 词 .特征 词 选择 过 程 ,首先 ,将 医药 相关 
礁 语 加 入 到 医学 ,并 将 其 词性 标注 为 “ah”, 同 时 加 入 
深 蝎 的 停 用 词 词典 ;然后 ,利用 HanLP 的 分 词 工具 分 
别 对 疾病 的 不 同 部 分 进行 分 词 处 理 ; 最 后 ,依据 分 词 的 
Wy EI t 地 征 词 ,其 中 概述 病因、 诊断 和 治疗 
选择 名 词性 词语 ,症状 部 分 主要 选择 词性 为 nh” 的 医 

> 实验 中 TFIDF 模型 的 实现 过 程 ,分 别 利用 疾病 的 
病 桂 .诊断 和 治疗 的 特征 词 ,构建 各 自 的 语料库 ,然后 
利用 gensim 中 TfidfModel 模块 构建 各 自 的 TF-IDF fit 
AIC) 

实验 中 LDA 模型 的 实现 过 程 ,利用 疾病 概述 部 分 
的 特征 词 ,构建 语料库 ,利用 gensim 中 的 LdaModel 构 
建 LDA 模型 。 

在 疾病 概述 的 LDA 模型 建立 中 , 主题 数 的 确定 对 
于 模型 的 应 用 至 关 重 要 ,本 文 在 实验 中 利用 困惑 度 ” 
来 确定 主题 数 ,不 同 主题 数 的 困惑 度 见 图 4。 

通过 图 4 可 以 得 到 主题 数 设置 为 60 ,迭代 数 设 定 
为 1 000 次 ,LDA 模型 的 困惑 度 最 小 ,因此 ,本 文 在 
LDA 模型 中 主题 数 选择 为 60 ,和 迭代 次 数 设 定 为 1 000。 

实验 中 基于 本 体 的 语义 相似 度 过 程 ,首先 是 获得 
聚 类 两 个 概念 最 近 的 共同 的 节点 ,然后 ,分 别 获取 三 个 
节点 到 根 节 点 的 距离 ,最 后 ,利用 公式 (2) 计算 相似 
度 ; 基 于 医学 百科 的 疾病 语义 相似 度 计算 ,基于 LDA 
的 相似 度 过 程 ,首先 ,导入 LdaModel 模型 ,然后 利用 疾 
病 的 概述 分 词 和 特征 提取 的 特征 词 和 LdaModel 模型 


1.2E+15 
1E+15 
8E+14 
6E+14 
4E+14 
2E+14 
0 1 

0 20 40 60 80 


主题 的 数量 


一 9 一 法 代 10 ”一 人 一 迭代 100 —9— 4È 1000 
图 4 LDA 主题 模型 困惑 度 


计算 疾病 的 主题 分 布 ,最 后 利用 公式 (3 ) 计算 两 个 疾 
病 的 定义 相似 度 ; 基 于 空间 向 量 的 相似 度 计 算 过 程 , 首 
先 , 导 和 人 相应 的 TF-IDF 模型 ,然后 ,计算 疾病 相应 部 分 
的 TF-IDF ,最 后 ,利用 gensim 中 的 similarities 计算 相似 
度 ; 基 于 集合 的 相似 度 计 算 过 程 是 将 两 个 疾病 症状 部 
分 的 特征 词 利 用 公式 (4) 进 行 计算 。 
4.3.2 结果 分 析 

在 疾病 的 综合 语义 相似 度 计算 中 ,涉及 到 基于 DO 
的 疾病 语义 相似 度 和 基于 医学 百科 的 的 疾病 语义 相似 
度 间 的 权重 o, 对 综合 语义 相似 度 计算 的 影响 ,在 实 
验 中 设计 了 综合 1 综合 2 综合 3 三 个 不 同 的 综合 语 
义 相 似 度 ,其 中 综合 1 语义 相似 度 计算 的 权重 设置 :a 
=0.5,8=0.5; 综 合 2 语义 相似 度 计算 的 权重 设置 :a 
=0.6,B=0.4; 综 合 3 语义 相似 度 计算 的 权重 设置 :a 
-0.4,8-0.6, 在 基于 医学 百科 的 疾病 语义 相似 度 计 
算 中 ,涉及 到 概述 .病因 ,症状 .诊断 和 治疗 方面 的 语义 
相似 度 间 的 权重 vy. ys ys ya Ys ,由 于 概述 部 分 是 对 
疾病 的 表达 ,考虑 其 对 疾病 语义 的 影响 程度 高 于 其 它 
部 分 ,因此 设置 较 高 的 权重 ;病因 症状 .诊断 和 治疗 方 
面 四 个 方面 分 别 从 不 同 角度 描述 疾病 ,将 这 四 个 语义 
相似 度 对 疾病 语义 相似 度 影 响 程度 认为 是 均等 的 ， 
此 四 个 权重 相同 ;在 实验 中 设计 基于 医学 百科 的 疾病 
相似 度 定 义 为 “综合 4”, 相 关 的 权重 设置 为 :y, =0.4， 
Y2 =Y3=Y=ys=0.15。 

利用 本 文 提出 的 方法 对 20 对 疾病 进行 语义 相似 
度 实 验 , 其 中 本 体 相 似 度 .定义 相似 度 ,病因 相似 度 、 症 
状 相似 度 .诊断 相似 度 、 和 治疗 相似 度 、 以 及 百科 语义 
相似 度 ( 综 合 4) 和 综合 语义 相似 度 ( 综合 LLRA 2m 
合 3) 的 实验 结果 见 表 1 。 

在 表 1 中 ,2 型 糖尿 病 同 糖尿 病 的 语义 相似 度 最 
高 ,由 于 2 型 糖尿 病 是 糖尿 病 的 一 种 类 型 ,因此 语义 相 
似 性 也 就 最 高 ;2 型 糖尿 病 和 糖尿 病 视网膜 病变 在 本 
体 中 分 别 属于 代谢 类 疾病 和 解剖 类 疾病 ,本 体 语义 相 
似 度 为 0, 实 际 上 糖尿 病 视网膜 病变 是 由 糖尿 病 引 起 
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的 ,因此 两 者 之 间 存 在 相似 性 ;同样 , 埃 博 拉 出 血 热 同 
病毒 性 脑膜 炎 和 病毒 性 肺炎 在 定义 描述 和 病因 中 都 具 
有 和 较 高 相似 性 ,但 是 本 体 相似 度 为 0。 通 过 表 1 表明 本 
文 多 维度 的 语义 相似 度 计算 能 够 反映 出 疾病 的 语义 相 


似 度 .症状 相似 度 、 诊 断 相 似 度 、 和 治疗 相似 度 、 以 及 百 
科 语 义 相 似 度 ( 综 合 4) 和 综合 语义 相似 度 (综合 1 Ey 
合 2 综合 3) 等 各 种 不 同方 法 同人 工 判断 的 疾病 语义 
相似 度 相 关 性 ,本 文采 用 Spearman 相关 系数 公式 (10 ) 


似 度 。 和 Pearson 相关 系数 公式 (11) 分 析 各 种 不 同 相 似 度 同 
为 了 分 析 疾 病 的 本 体 相似 度 .定义 相似 度 .病因 相 | 人 工 相似 度 的 相关 性 ,实现 结果 如 图 5 Bron : 

1.000 s * > m ee .891 
0.900 : ame - NE= S g DET E .830 SS 
080 SS X ES ES 
o» SB SB NB 
0.600 N NS au i 2 
oso X NS N Sa 一 一 
040 — X N N 
0300 — 3S N N 
0.200 S N N X 
0.100 NS X X N i S 

p UP Sel 综合 2 综合 3 Gà — XX 病因 PRO DE 治疗 综合 4 

CO X Spearman 相关 系数 = Pearson 相关 性 

- 图 5 Spearman 相关 系数 和 Pearson 相关 系数 

e 


所 在 图 5 中 ,从 Spearman 相关 系数 和 Pearson 相关 系 
BEERA E ,疾病 的 综合 语义 相似 度 (综合 1 综合 2、 
综合 3) .本 体 相 似 度 .定义 相似 度 、 病 因 相 似 度 .症状 
相似 度 .诊断 相似 度 . 和 治疗 相似 度 ` 以 及 百科 语义 相 
XB CL 4) 同人 工 判读 的 疾病 与 相似 度 具有 较 高 相 
ADL, JA Spearman 相关 系数 看 ,综合 2 语义 相似 度 同人 
工 阐 断 的 相关 性 最 高 (Spearman 相关 系数 为 0. 935 ) , 
VENEA 1 (Spearman 相关 系数 为 0.923) ,再 次 为 疾 
病 加 科 语义 相似 度 (综合 4，Spearman 相关 系数 为 
0:900) ,综合 3( Spearman 相关 系数 为 0.874) ,症状 相 
IUE ( Spearman 相关 系数 为 0.221) 最 低 ;从 Pearson 相 
关系 数 看 , 同 Spearman 相关 系数 基本 一 致 ,综合 2 语义 
相关 性 (Pearson 相关 系数 为 0. 948 ) 最 高 ,次 之 为 综合 
1 ( Pearson 相关 系数 为 0.941 ) ,再 次 为 综合 (Pearson 
相关 系数 为 0.925) ,症状 相似 度 ( Pearson 相关 系数 为 
0.471) 最低。 

同人 工 判读 的 疾病 语义 相似 度 实验 表明 :GD 综合 
疾病 本 体 和 疾病 百科 的 疾病 语义 相似 度 计算 结果 优 于 
分 别 利 用 疾病 本 体 或 疾病 百科 计算 的 语义 相似 度 ;@) 
通过 调整 基于 本 体 语义 相似 度 和 基于 疾病 百科 的 语义 
相似 度 的 权重 可 以 提高 综合 语义 相似 度 的 结果 ;@@ 基 
于 疾病 百科 的 综合 语义 相似 度 明显 优 于 将 定义 .病因 、 
症状 .诊断 和 治疗 分 别 计算 语义 相似 度 ;@ 综 合 1 ` 综 
合 2 和 综合 3 同人 工 判 断 相关 系数 表明 ,基于 DO 的 疾 
病 语义 相似 度 相 较 于 基于 医学 百科 的 疾病 语义 相似 度 
的 权重 相对 较 高 些 。 整 体 表明 本 文 提出 多 维度 的 语义 


综合 相似 度 计 算 方 法 能 够 满足 人 工 判断 疾病 语义 相似 
度 要 求 , 具 有 较 好 的 效果 。 


5 结语 


本 文 利 用 疾病 本 体 和 疾病 百科 设计 了 多 维度 的 疾 
病 语义 相似 度 计算 方案 。 针 对 医学 百科 全 书 中 疾病 概 
述 部 分 ,设计 了 基于 LDA 的 语义 相似 度 计 算 方 法 ; 针 
对 疾病 症状 部 分 ,设计 了 基于 结合 的 语义 相似 度 计算 
方法 ;针对 病因 诊断 和 治疗 部 分 ,设计 了 基于 空间 向 
量 的 语义 相似 度 计 算 方 法 ;依据 专家 和 实验 将 所 有 相 
似 度 其 融合 到 一 起 ,其 中 基于 DO 的 疾病 语义 相似 度 
和 基于 医学 百科 的 疾病 语义 相似 度 间 的 权重 在 实验 中 
分 别 采用 三 组 不 同 值 进行 了 探索 分 析 , 结 果 表明 基于 
DO 的 疾病 语义 相似 度 相 较 于 基于 医学 百科 的 疾病 语 
义 相似 度 的 权重 相对 较 高 些 。 本 文 的 方法 既 包 含有 疾 
病 概念 关系 的 相似 度 ,又 包括 疾病 的 语义 描述 ,从 而 实 
现 多 维度 来 衡量 疾病 的 语义 相似 度 ,与 单 维度 的 语义 
相似 度 相 比 ,具有 较 好 的 效果 。 下 一 步 将 继续 研究 基 
于 医学 百科 语义 相似 度 中 融入 医学 知识 ,使 疾病 语义 
相似 度 的 计算 进一步 优化 和 完善 ;进一步 将 本 文 提出 
的 文本 相似 度 运用 到 其 他 研究 领域 中 。 
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iA 
x< Abstract; | Purpose/ significance | Aiming at different expression of disease knowledge, this paper proposes a 
prehensive semantic similarity calculation scheme that integrates multi-dimension of disease. | Method/process | 
"Qn the basis of integrating the characteristics of disease ontology and Medical Encyclopedia, the comprehensive se- 
quanti similarity, which consists of semantic similarity based on disease ontology and disease semantic similarity 
based on medical encyclopedia, was built. Semantic similarity of diseases based on medical encyclopedia was calcu- 
lated by LDA, set theory and vector space model. | Result/conclusion | The results show that the proposed method 
can effectively reflect the semantic similarity of diseases. The comprehensive semantic similarity calculation scheme 
offers helpful reference for further research. 
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